Patcher: Reparación post-hoc de modelos de lenguaje con puertas traseras
Descubre cómo Patcher repara modelos de lenguaje con puertas traseras usando solo un fallo reportado. Defensa práctica contra ataques de entrenamiento.
Descubre cómo Patcher repara modelos de lenguaje con puertas traseras usando solo un fallo reportado. Defensa práctica contra ataques de entrenamiento.